2025 iThome 鐵人賽

DAY 27

0

生成式 AI

30 天打造第一本 AI 圖鑑：把怪獸收服成你的神奇寶貝系列第 27 篇

Day26 【圖像系】模型的進化論－－從對抗到從粒子中創造世界的「擴散」模型

17th鐵人賽

2025-10-11 23:55:04

293 瀏覽

分享至

今日事項： 透過圖像模型的發展，了解現代不同類別圖像模型的演變、特點，以及演進的軌跡。

如果文章對你有幫助的話，歡迎按讚或留言，讓我知道我不是一個人在這裡碎碎念（？），我會很感謝的❤️

圖像模型的成長也是一場特別的進化

如果說語言模型的成長是由小到大、從單純的背答案到有感情、會思考，那圖像模型的變化就更有趣了一些。

（在技術有標記紅字的是重要技術出現的時間點）

年份	技術 / 模型	團隊 / 論文來源	主要突破 / 意義
2014.06	`GAN`（Generative Adversarial Network）	Google	開啟生成式模型時代，以`對抗訓練方式`生成逼真圖片。
2018.03	Progressive GAN (PGGAN)	NVIDIA	首次實現可生成高解析人臉圖像（1024×1024）。
2018.12	BigGAN	DeepMind	提升生成品質與穩定性，能生成多樣真實感圖像。
2019.02	StyleGAN	NVIDIA	可分離內容與風格控制，帶動 `AI Portrait（AI 肖像）`熱潮。
2020.12	`DDPM` (Denoising Diffusion Probabilistic Models)	UC Berkeley / Google	擴散模型誕生，成為後來 Diffusion 類技術基礎。
2021.01	DALL·E 1	OpenAI	`首次用「文字描述 → 圖像」`生成，開啟 Text-to-Image 時代。
2021.05	`CLIP` (Contrastive Language–Image Pretraining)	OpenAI	建立文字與圖像對齊橋樑，成為 Diffusion 模型基石。
2022.07	Stable Diffusion v1.4（開源）	Stability AI + CompVis	以 Latent Diffusion 為基礎，開啟`開源`繪圖革命。
2022.07	Midjourney v1	Midjourney	推動`藝術風格 AI 圖像生成浪潮`。
2022.09	DreamBooth	Google Research	「個人化微調」技術誕生，可訓練 AI 記住特定人物或風格。
2022.11	`LoRA`（Low-Rank Adaptation）	Microsoft Research	`輕量化微調`技術，讓個人可快速定制模型，成為 Stable Diffusion 微調主流。
2023.02	`ControlNet`	Lvmin Zhang（斯坦福 / 微軟）	可用`線稿、深度圖、姿勢圖控制生成圖像`，解決“畫不準”的問題。
2024.10	Flux 1	Black Forest Labs（前 Stability 成員）	多模態繪圖模型，延續 SD 開源血統，支援高度可控風格。

1. 對抗網絡（GAN）時代：偽造大師與鑑畫師之間的「對抗」

從酒吧中蹦出來的靈感

生成對網絡（GAN, Generative Adversarial Network）由Ian Goodfellow 等人在 2014 年提出，開啟了圖像生成模型的新時代。

說起來，這個 GAN 的誕生也是來自於一個神奇的靈光一閃。好像很多人類歷史上偉大的發明都來自於奇怪的想法？

Ian Goodfellow 在那時還是一個蒙特婁大學的博士生，某天在酒吧跟朋友聊天的時候，有朋友請他幫忙看看有關電腦生成圖片的項目。

當時他們利用神經網路的方式來進行電腦生圖，但結果不是臉模糊就是身體缺了一點零件。

這種模型的訓練方式，簡單來說就是給 AI 很多很多資料，比如要生成貓的話，給他看過很多貓的資料後，較他生成貓，他就會用曾經看過的那些資料來模擬，簡單來說就是背好答案之後抄出來。

這有點像是文字生成，但文字生成出來，有一兩個字不對勁沒什麼，不過圖像生成，有一兩個地方不對勁那就真的很不對勁……比如缺胳膊少腿。

Ian Goodfellow 在酒吧裡喝酒，喝著喝著突然跳出了一個想法，如果不是單純只有一個神經網絡模型，而是兩個，他們一個造假、一個辨假，是不是會有不一樣的結果？

如果只有一個模型的話，自己摸索，根本不知道什麼叫做「好圖片」，但如果讓另一個模型一起加入進來，兩邊都可以在過程中成長，一個越來越會騙，一個月來越會看，這不是比人工來看要簡單多了？

革命性的概念在酒醉的夜晚被創造出來

當時在酒吧的時候，Ian Goodfellow 就跟朋友們說了這個想法，但朋友們抱著懷疑態度，甚至他自己在後來也覺得自己在清醒的時候不會認為這想法可行。畢竟訓練一個神經網絡就夠難了，你還要再額外訓練一個，然後互相學習指證，根本就不可能。

但眾所皆知，他那天喝了酒……所以他回家之後就把電腦打開來試了。（感謝酒精的貢獻）

然後他為了這個很天馬行空的想法，寫代碼寫到了凌晨，進行測試，沒想到竟然出來了結果，雖然很小而且非常模糊，但的確有了起點。

GAN 就這樣水靈靈的出現了！

（也不知道他的朋友知道了之後有沒有想揍他的感想？）

Day26 【語言系】模型成長史－－大參數、長上下文、情感、思考……等功能演進

Day28 AI 訓練家守則－－你必須知道的著作權、法律與倫理

系列文

30 天打造第一本 AI 圖鑑：把怪獸收服成你的神奇寶貝共 30 篇

目錄

RSS系列文訂閱系列文

2 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙